作者:Tristan Zajonc
网址:http://blog.cloudera.com/blog/2017/05/getting-started-with-cloudera-data-science-workbench/
◆◆◆
前两周,Cloudera公司宣布了Cloudera 数据科学工作台(Cloudera Data Science Workbench)的通用版本的发布。在本篇博文中,我将简要介绍其功能和架构,以及通过三个简单步骤将Cloudera 数据科学工作台连接到您现有CDH集群的快速入门指南。
Cloudera 数据科学工作台的核心是为企业提供自助式数据科学。数据科学家可以在短时间内快速构建、扩展和部署数据科学以及机器学习解决方案,同时能够利用Cloudera公司的企业数据中心(EDH)的全部能力和安全功能。
Cloudera数据科学工作台的核心功能
Projects
Collaborative hub for enterprise data science with isolated projects, secure collaboration, and simple dependency management.
项目
具有项目独立、安全协作和简单依赖关系管理性能的企业数据科学协作中心。
Workbench
Integrated development environment for Python, R, and Scala with support for Spark 2 and connectivity to secured CDH clusters.
工作台
适用于Python、R和Scala的集成开发环境,支持Spark 2,并且与安全CDH集群的相连接。
Jobs
Lightweight job and pipeline system for data science workload that supports real-time monitoring, results tracking, and email alerting.
作业
适用于数据科学工作负载的轻量级作业和管道系统,支持实时监控、结果跟踪和电子邮件提醒。
自我们开始构建Cloudera数据科学工作台以来,我们的目标就是致力于为数据科学家、分析技术负责人和IT管理员提供其喜欢的解决方案。这意味着针对数据科学家提供其所需的零配置和真正的灵活性,针对分析技术负责人提供其所需的多租户和无缝协作功能,以及针对IT管理员提供其所需的易于集成和高安全性。在很长一段时间里,这些目标之间一直存在冲突。
通过利用Cloudera数据科学工作台1.0版本,我们相信我们已经实现了上述这些目标。具体来说,Cloudera数据科学工作台为不同团队提供了各种便利。
Cloudera数据科学工作台的主要优点
Data Scientists
数据科学家
Get more done, faster, on more data
更快更好地处理更多的数据
●Stat coding faster – no setup required
●更快的统计编码- 无需设置
●Use existing Python and R libraries
●使用现有的Python和R库
●Access secure Hadoop environments
●访问安全的Hadoop环境
●Easily automate, share, and deploy project code
非常方便地自动化、共享和部署项目代码
Analytics leaders
分析技术负责人
Scale the data science practice
扩大数据科学实践
●Deliver more projects, faster
●更快地提供更多的项目
●Easily onboard team members
●轻松使团队成员协作
●Enforce library standards, drive reuse
●执行库标准,促进再利用
●Enable collaboration between data scientists and business teams.
●实现数据科学家和业务团队之间的协作
IT/operations
IT/运营
Reduce costs, risk, and fragmentation
节约成本、降低风险和存储残片
●Deliver self-service, shared analytics infrastructure
●提供自助服务,共享分析基础架构
●Leverage existing Hadoop investments
●利用现有的Hadoop投资
●Maintain security, governance, auditability, and SLAs
●维持安全性、治理性、可审计性和SLA(服务等级协议)
这些功能和优点的实现依赖于Cloudera 数据科学工作台的底层架构。为了了解其是如何实现的,下面我将进行更深入的说明。
数据科学的安全性、可扩展性、多租户网关
Cloudera 数据科学工作台在一个CDH集群上运行一个或多个专用网关主机。Cloudera Manager可确保Cloudera 数据科学工作台具有安全访问CDH集群所必需的库和配置,而无需其他配置。此外,数据科学家不必通过下载或安装步骤即可直接从网络浏览器访问Cloudera 数据科学工作台。
Cloudera 数据科学工作台连接至现有CDH集群
为了确保用户可以在没有IT干预的情况下使用其所需的所有工具和库,Cloudera 数据科学工作台使用Docker容器来运行独立的用户工作负载。针对每一个项目,用户可以使用不同版本的库和系统包运行R、Python和Scala工作负载。CPU和内存也是相对独立的,确保了在多租户设置中可靠、可扩展地执行。运行用户工作负载的每个Docker容器提供了一个虚拟化网关,可以安全访问集群服务,例如Apache HDFS、Apache Spark 2、Apache Hive和Apache Impala。
Cloudera数据科学工作台从基础开始构建,以支持数据科学团队在单一共享环境中协作完成任务。每次安装从一个主网关节点开始。可以随时增减工作人员网关节点以增加总容量,使之随着使用量的扩展,可以轻松地向最终用户以完全透明的方式添加容量。
Cloudera数据科学工作台可以透明地在多个节点之间调度容器。通过Kubernetes(Cloudera数据科学工作台内部使用的容器编排系统)可以完成此调度操作。不管是Docker还是Kubernetes都不会直接向最终用户公开呈现,用户通过Web应用程序与Cloudera数据科学工作台进行交互。通过防止用户直接访问边缘主机, Cloudera数据科学工作台为最终用户提供了额外的灵活性,同时保持了其安全性。
来自R、Python和Scala的Native Spark 2支持
除了支持独立的R和Python访问CDH服务(例如HDFS、Hive和Impala),Cloudera数据科学工作台也原生支持对Spark 2.1的交互式和批量访问 - Spark 2.1是Spark最新、最好的发布版本。没有必要经历提交Spark应用程序,等待结果,然后在发现错误或意外结果时重新提交应用程序的过程,数据科学家从探索到生产都可以在一个互动工作台中直接工作。
为了充分利用现有CDH集群的全部功能,Cloudera数据科学工作台通过YARN客户端模式发挥Spark的最大效力,其中Spark驱动程序在Cloudera数据科学工作台项目容器中运行,Spark执行程序运行在可以完全访问的CDH集群资源中。通过启用Spark的动态分配功能,Spark仅在必要时才申请资源,从而使集群资源能够以更为细粒度的方式对不同的工作负载动态共享。在容器内运行驱动程序,使得数据科学家能够在完全可定制的环境中轻松地安装软件包并交互式工作;同时,仍能充分利用Spark的分布式执行功能和YARN所具备的强大的多租户功能。
Spark 2支持R、Python和Scala与YARN进行集成,包括动态申请资源以支持长时间运行的交互式会话和批处理作业。
只需三个步骤,即可简单安装
Cloudera数据科学工作台提供了数据科学家、分析技术负责人和IT管理员所喜爱的自助式数据科学经验。幸运的是,将这些功能集成到您现有的CDH集群中也非常容易。
您可以通过访问我们的下载页面下载官方1.0 RPM,然后参照一些简单的安装步骤进行安装。在高级别中,您所需要做的就是:
1. 在Cloudera Manager中配置网关主机。
2. 在主网关主机上安装Cloudera数据科学工作台。
3. 添加零个或多个工作主机(如果需要的话)。
因此,您可以使用R、Python和Scala安全地连接到CDH集群,协作、共享项目和成果,并且可以在单一、安全的多租户环境中加速数据科学从探索向生产演变。
请点击“阅读全文”进入微站
(更多技术干货、行业动态,请关注【微站】,不定时更新)